Dữ liệu là gì? Các công bố khoa học về Dữ liệu
Dữ liệu là một tập hợp các thông tin, số liệu, sự kiện, quá trình hay kết quả thu thập từ các nguồn khác nhau. Dữ liệu có thể tồn tại dưới dạng văn bản, số, hìn...
Dữ liệu là một tập hợp các thông tin, số liệu, sự kiện, quá trình hay kết quả thu thập từ các nguồn khác nhau. Dữ liệu có thể tồn tại dưới dạng văn bản, số, hình ảnh, âm thanh, video hoặc bất kỳ định dạng nào khác. Dữ liệu được sử dụng để phân tích, xử lý, lưu trữ, truyền tải hay sử dụng cho mục đích nghiên cứu, quản lý và ra quyết định.
Dữ liệu là một tập hợp các thông tin và thông số có thể thu thập được từ nhiều nguồn khác nhau. Nó có thể tồn tại dưới nhiều dạng khác nhau như văn bản, số, hình ảnh, âm thanh, video, tệp tin hoặc cơ sở dữ liệu.
Dữ liệu có thể thu thập từ nhiều nguồn khác nhau như các cuộc khảo sát, thí nghiệm, hồ sơ bệnh án, truy vấn cơ sở dữ liệu, thiết bị cảm biến, mạng xã hội, trang web, v.v. Dữ liệu thu thập có thể là dữ liệu số (như số liệu thống kê, thông tin tài chính, dữ liệu khoa học) hoặc dữ liệu phi số (như văn bản, hình ảnh).
Dữ liệu đóng vai trò quan trọng trong nhiều lĩnh vực và hoạt động khác nhau. Chẳng hạn, trong lĩnh vực kinh doanh, dữ liệu được sử dụng để phân tích thị trường, dự đoán xu hướng, tối ưu hóa quy trình sản xuất và quản lý khách hàng. Trong lĩnh vực y tế, dữ liệu giúp theo dõi sức khỏe cá nhân, nghiên cứu bệnh lý và cải thiện chẩn đoán và điều trị.
Dữ liệu có thể được xử lý, phân tích, lưu trữ và truyền tải bằng cách sử dụng các phương pháp và công nghệ phổ biến như máy tính, cơ sở dữ liệu, các ngôn ngữ lập trình, học máy và trí tuệ nhân tạo. Công nghệ thông tin và khoa học dữ liệu đã phát triển nhanh chóng trong thời gian gần đây, mở ra nhiều cơ hội mới cho khai thác và sử dụng dữ liệu.
Dữ liệu có hai loại cơ bản là dữ liệu cấu trúc và dữ liệu phi cấu trúc.
Dữ liệu cấu trúc là dữ liệu có tổ chức rõ ràng và được tổ chức thành các bảng, hàng và cột. Dữ liệu cấu trúc thường được lưu trữ trong các cơ sở dữ liệu quan hệ và có thể truy vấn bằng ngôn ngữ truy vấn SQL. Ví dụ về dữ liệu cấu trúc bao gồm dữ liệu học sinh trong một trường học, dữ liệu bán hàng của một cửa hàng, hoặc dữ liệu tài chính của một công ty.
Dữ liệu phi cấu trúc là dữ liệu không có cấu trúc định sẵn và không tổ chức theo mô hình bảng hay cột. Ví dụ về dữ liệu phi cấu trúc bao gồm văn bản, email, tệp tin đa phương tiện (hình ảnh, video, âm thanh), dữ liệu từ các mạng xã hội và các trang web. Dữ liệu phi cấu trúc thường phức tạp hơn và khó khai thác hơn dữ liệu cấu trúc. Để phân tích và sử dụng dữ liệu phi cấu trúc, thường cần sử dụng các công cụ và kỹ thuật xử lý dữ liệu phi cấu trúc như xử lý ngôn ngữ tự nhiên, khai phá dữ liệu và học máy.
Dữ liệu cũng có đặc điểm về ý nghĩa (semantic) và chất lượng (quality). Ý nghĩa của dữ liệu liên quan đến sự hiểu biết và nghĩa vụ của dữ liệu, bao gồm cú pháp, ngữ nghĩa và tác động của dữ liệu lên ngữ cảnh sử dụng. Chất lượng của dữ liệu bao gồm độ chính xác, độ hoàn thiện, tính nhất quán, tính sẵn có và độ tin cậy của dữ liệu.
Dữ liệu cũng có thể được phân loại dựa trên quy mô, độ lớn và tính phân tán. Điều này liên quan đến cách dữ liệu được tổ chức và xử lý. Dữ liệu có thể được phân thành dữ liệu nhỏ (small data), dữ liệu lớn (big data), dữ liệu phân tán (distributed data), v.v.
Dữ liệu là yếu tố cơ bản để đưa ra quyết định thông minh và phát triển các ứng dụng học máy và trí tuệ nhân tạo. Quá trình thu thập, lưu trữ, quản lý và xử lý dữ liệu được gọi là quy trình dữ liệu (data pipeline).
Danh sách công bố khoa học về chủ đề "dữ liệu":
Động lực: Mặc dù đã có nhiều công cụ xử lý dữ liệu đọc từ giải trình tự thế hệ mới (NGS), chúng tôi vẫn không tìm thấy công cụ nào hoặc sự kết hợp của các công cụ đáp ứng yêu cầu của chúng tôi về tính linh hoạt, khả năng xử lý chính xác dữ liệu cặp đầu và hiệu suất cao. Chúng tôi đã phát triển Trimmomatic như một công cụ xử lý dữ liệu đầu vào linh hoạt và hiệu quả hơn, có khả năng xử lý chính xác dữ liệu cặp đầu.
Kết quả: Giá trị của việc xử lý dữ liệu đọc NGS đã được chứng minh cả trong các tác vụ dựa trên tham chiếu và không dựa trên tham chiếu. Trimmomatic cho thấy sản phẩm đầu ra ít nhất là ngang bằng, và trong nhiều trường hợp còn vượt trội hơn, so với các công cụ khác trong tất cả các kịch bản đã được kiểm nghiệm.
Tính khả dụng và triển khai: Trimmomatic được cấp phép theo GPL V3. Công cụ này có thể chạy trên nhiều nền tảng (cần Java 1.5+) và có sẵn tại http://www.usadellab.org/cms/index.php?page=trimmomatic
Liên hệ: [email protected]
Thông tin bổ sung: Dữ liệu bổ sung có sẵn trực tuyến tại Bioinformatics.
Chúng tôi giới thiệu phiên bản mới nhất của phần mềm Phân Tích Di Truyền Phân Tử (MEGA), bao gồm nhiều phương pháp và công cụ tinh vi cho phân loại gen và y học phân loại. Trong lần nâng cấp lớn này, MEGA đã được tối ưu hóa để sử dụng trên các hệ thống máy tính 64-bit nhằm phân tích các tập dữ liệu lớn hơn. Các nhà nghiên cứu giờ đây có thể khám phá và phân tích hàng chục nghìn chuỗi trong MEGA. Phiên bản mới cũng cung cấp một trình hướng dẫn nâng cao để xây dựng cây thời gian và bao gồm chức năng mới để tự động dự đoán các sự kiện sao chép gen trong các cây họ gen. MEGA 64-bit được cung cấp qua hai giao diện: đồ họa và dòng lệnh. Giao diện người dùng đồ họa (GUI) là một ứng dụng dành cho Microsoft Windows có thể sử dụng cả trên Mac OS X. Dòng lệnh MEGA có sẵn dưới dạng ứng dụng gốc cho Windows, Linux và Mac OS X. Chúng được thiết kế để sử dụng trong phân tích quy mô lớn và phân tích kịch bản. Cả hai phiên bản đều được cung cấp miễn phí từ www.megasoftware.net.
Tóm tắt: Dự kiến các công nghệ biểu hiện gen số (DGE) mới nổi sẽ vượt qua công nghệ chip vi thể trong tương lai gần cho nhiều ứng dụng trong gen học chức năng. Một trong những nhiệm vụ phân tích dữ liệu cơ bản, đặc biệt cho các nghiên cứu biểu hiện gen, liên quan đến việc xác định liệu có bằng chứng cho thấy sự khác biệt ở số lượng của một bản sao hoặc exon giữa các điều kiện thí nghiệm hay không. edgeR là một gói phần mềm Bioconductor dùng để kiểm tra sự biểu hiện khác biệt của dữ liệu đếm lặp lại. Một mô hình Poisson phân tán quá mức được sử dụng để tính đến cả tính biến thiên sinh học và kỹ thuật. Các phương pháp Bayes thực nghiệm được sử dụng để điều chỉnh mức độ phân tán quá mức giữa các bản sao, cải thiện độ tin cậy của suy diễn. Phương pháp này có thể được sử dụng ngay cả với các mức độ lặp lại tối thiểu, miễn là ít nhất một kiểu hình hoặc điều kiện thí nghiệm được lặp lại. Phần mềm này còn có thể có các ứng dụng khác ngoài dữ liệu giải trình tự, chẳng hạn như dữ liệu số lượng peptide proteome.
Khả năng truy cập: Gói này có sẵn miễn phí theo giấy phép LGPL từ trang web Bioconductor (http://bioconductor.org).
Liên lạc: [email protected]
Chúng tôi mô tả một phương pháp phân nhóm dựa trên mô hình để sử dụng dữ liệu genotype đa locus nhằm suy diễn cấu trúc dân số và phân bổ cá thể vào các quần thể. Chúng tôi giả định một mô hình trong đó có K quần thể (K có thể không được biết), mỗi quần thể được đặc trưng bởi một tập hợp các tần số allele tại mỗi locus. Các cá thể trong mẫu được phân bổ (về mặt xác suất) vào các quần thể, hoặc chung vào hai hoặc nhiều quần thể nếu kiểu gen của chúng cho thấy rằng chúng là lai tạp. Mô hình của chúng tôi không giả định một quy trình đột biến cụ thể, và nó có thể được áp dụng cho hầu hết các dấu hiệu gen di truyền thường được sử dụng, với điều kiện là chúng không liên kết chặt chẽ với nhau. Các ứng dụng của phương pháp chúng tôi bao gồm việc chứng minh sự hiện diện của cấu trúc dân số, phân bổ cá thể vào các quần thể, nghiên cứu các vùng lai tạp, và xác định những cá thể di cư và lai tạp. Chúng tôi cho thấy phương pháp này có thể tạo ra các phân bổ cực kỳ chính xác với việc sử dụng số lượng locus khiêm tốn—ví dụ, bảy locus microsatellite trong một ví dụ sử dụng dữ liệu genotype từ một loài chim nguy cấp. Phần mềm được sử dụng cho bài báo này có sẵn tại http://www.stats.ox.ac.uk/~pritch/home.html.
Tóm lược: MrBayes 3 thực hiện phân tích phát sinh loài Bayesian kết hợp thông tin từ các phần dữ liệu hoặc các phân tập khác nhau tiến hóa dưới các mô hình tiến hóa ngẫu nhiên khác nhau. Điều này cho phép người dùng phân tích các tập dữ liệu không đồng nhất bao gồm các loại dữ liệu khác nhau—ví dụ: hình thái, nucleotide và protein—và khám phá nhiều loại mô hình cấu trúc kết hợp tham số duy nhất và chung của phần. Chương trình sử dụng MPI để song song hóa kết hợp Metropolis trên các cụm máy Macintosh hoặc UNIX.
Khả dụng: http://morphbank.ebc.uu.se/mrbayes
Liên hệ: [email protected]
* Địa chỉ thông tin liên lạc.
Một phương trình mới và tương đối đơn giản cho đường cong áp suất chứa nước trong đất, θ(
Các dự án giải trình tự DNA thế hệ tiếp theo (NGS), chẳng hạn như Dự án Bộ Gen 1000, đã và đang cách mạng hóa sự hiểu biết của chúng ta về sự biến dị di truyền giữa các cá nhân. Tuy nhiên, các tập dữ liệu khổng lồ được tạo ra bởi NGS—chỉ riêng dự án thí điểm Bộ Gen 1000 đã bao gồm gần năm terabase—làm cho việc viết các công cụ phân tích giàu tính năng, hiệu quả và đáng tin cậy trở nên khó khăn ngay cả đối với những cá nhân có kiến thức tính toán phức tạp. Thực tế, nhiều chuyên gia gặp phải giới hạn về quy mô và sự dễ dàng trong việc trả lời các câu hỏi khoa học bởi sự phức tạp trong việc truy cập và xử lý dữ liệu do những máy này tạo ra. Trong bài báo này, chúng tôi thảo luận về Bộ công cụ Phân tích Bộ Gen (GATK) của chúng tôi, một khung lập trình có cấu trúc được thiết kế để tạo điều kiện thuận lợi cho sự phát triển của các công cụ phân tích hiệu quả và đáng tin cậy dành cho các máy giải trình tự DNA thế hệ tiếp theo sử dụng triết lý lập trình hàm MapReduce. GATK cung cấp một bộ mẫu truy cập dữ liệu nhỏ nhưng phong phú, bao trùm hầu hết các nhu cầu của công cụ phân tích. Việc tách biệt các tính toán phân tích cụ thể khỏi hạ tầng quản lý dữ liệu chung cho phép chúng tôi tối ưu hóa khung GATK về độ chính xác, độ ổn định, và hiệu quả CPU và bộ nhớ, cũng như cho phép phân giải song song bộ nhớ chia sẻ và phân tán. Chúng tôi nhấn mạnh các khả năng của GATK bằng cách mô tả việc triển khai và ứng dụng các công cụ đáng tin cậy và dung nạp quy mô như máy tính phủ và gọi đa hình đơn nucleotide (SNP). Chúng tôi kết luận rằng khung lập trình GATK cho phép các nhà phát triển và nhà phân tích nhanh chóng và dễ dàng viết các công cụ NGS hiệu quả và đáng tin cậy, nhiều công cụ trong số đó đã được tích hợp vào các dự án giải trình tự quy mô lớn như Dự án Bộ Gen 1000 và Atlas Bộ Gen Ung thư.
Chúng tôi đã đo lường các đặc tính đàn hồi và độ bền phá vỡ nội tại của màng graphene dạng đơn lớp tự do bằng phương pháp nén nano trong kính hiển vi lực nguyên tử. Hành vi lực-chuyển vị được diễn giải theo khung phản ứng ứng suất-biến dạng đàn hồi phi tuyến và cho ra độ cứng đàn hồi bậc hai và bậc ba lần lượt là 340 newton trên mét (N m\n –1\n ) và –690 Nm\n –1\n . Độ bền phá vỡ là 42 N m\n –1\n và đại diện cho sức mạnh nội tại của một tấm không có khuyết tật. Những thông số này tương ứng với mô đun Young là\n
- 1
- 2
- 3
- 4
- 5
- 6
- 10